## Parsed with column specification:
## cols(
##   series_name = col_character(),
##   episode = col_character(),
##   series_ep = col_integer(),
##   season = col_integer(),
##   season_ep = col_integer(),
##   url = col_character(),
##   user_rating = col_double(),
##   user_votes = col_double(),
##   r1 = col_double(),
##   r2 = col_double(),
##   r3 = col_double(),
##   r4 = col_double(),
##   r5 = col_double(),
##   r6 = col_double(),
##   r7 = col_double(),
##   r8 = col_double(),
##   r9 = col_double(),
##   r10 = col_double()
## )

A quantidade de temporadas é inversamente proporcional à nota da série?

Antes de responder a esta pergunta podemos tentar ter um panorama geral do comportamento das notas atribuídas a cada temporada de uma série. Nos gráficos abaixo podemos ver, por exemplo, que os produtores de American Idol foram bastante persistentes uma vez que desde a primeira teporada o show não foi bem recebido pelo público. Depois de muitos altos e baixos, na 12ª temporada quando a nota foi a segunda pior da sua história, as temporadas seguintes vêm mostrando um crescimento bastante alto atingindo a nota máxima, 6.72 na 15ª temporada.

Porém também podemos observar casos em que aparentemente os produtores não souberam quando parar. Os Simpsons ilustra bem essa situação. A série passa bastante tempo bem sucedida mas a partir mais ou menos da 11ª temporada, sua nota começa a cair bastante chegando a 6.67 na 28ª temporada.

Outro fato interessante é que quando começam, as séries ficam num limbo entre aproximadamente 6.8 e 9.2 e aparentemente há um processo de funilamento até a 8ª temporada. Outra coisa que chama atenção é um conjunto de séries que aparecem com um traço sempre crescente até mais ou menos a 4ª temporada.

series_by_season = series %>% 
  group_by(series_name, season) %>% 
  summarise(mean_user_rating = mean(user_rating))

series_by_season %>% 
  ggplot(aes(x = season, y = mean_user_rating, group = series_name)) + 
  geom_line(size = 0.1, alpha = 0.5)

means_by_season = plot_ly(series_by_season,
                         x = ~season,
                         y = ~mean_user_rating,
                         color = ~series_name,
                         type = "scatter",
                         mode = "lines") %>% 
  layout(showlegend = FALSE,
         title = "Nota IMDB ao Longo das Temporadas",
         xaxis = list(title = "Nota IMDB"),
         yaxis = list(title = "Temporada"))

means_by_season

Mas para de fato responder a esta pergunta, devemos checar se existe uma correlação linear entre a quantidade de temporadas e a nota “absoluta” de uma série. Sendo a nota “absoluta” a média de todas as avaliações dadas àquela série.

absolute_mean_series = series %>%
  group_by(series_name) %>%
  summarise(mean_user_rating = mean(user_rating),
            total_seasons = n_distinct(season))

seasons_vs_user_rating = absolute_mean_series %>%
  plot_ly(x = ~total_seasons,
          y = ~mean_user_rating,
          marker = list(size = 10,
                        line = list(width = 2))
          ) %>% 
  
  layout(title = "Relação Entre a Nota de uma Série e Quantidade de Temporadas",
         xaxis = list(title = "Total de Temporadas"),
         yaxis = list(title = "Nota da Série"))

seasons_vs_user_rating
#cor(absolute_mean_series$total_seasons, absolute_mean_series$mean_user_rating,
#    method = "pearson")

Já pelo gráfico, podemos deduzir que não há uma correlação linear forte entre a nota de uma série e o total de temporadas dela. O que se confirma ao calcularmos o coeficiente linear de Pearson, que é igual a 0.048, como é próximo de zero, podemos afirmar que a correlação linear entre as variáveis é fraca. Mas podemos observar que aparentemente quanto mais temporadas mais as notas convergem para 8. Esse seria o funil observado nos gráficos anteriores.

Geralmente, quantas temporadas as séries de sucesso têm?

Consideraremos séries de sucesso, aquelas que possuem nota acima de 8.9.

O fato de não haver correlação entre a quantidade de séries e sua nota IMDB também fica evidenciado aqui, uma vez que as séries variam de 1 a 6 temporadas. Mas existe uma concentração maior de séries bem sucedidas com 2 e 3 temporadas.

success_series = absolute_mean_series %>% 
  filter(mean_user_rating > 8.9)

plot_success_series = success_series %>%
  plot_ly(x = ~total_seasons,
          y = ~mean_user_rating,
          type = "bar",
          color = ~series_name) %>% 
  layout(title = "Total de Temporadas de Séries de Sucesso",
         xaxis = list(title = "Total de Temporadas"),
         yaxis = list(title = "Nota IMDB"),
         barmode = "stack")

plot_success_series
density_success_series = success_series %>%
  ggplot(aes(total_seasons)) +
  geom_density(fill =  "#ff4d4d", alpha = 0.5)

ggplotly(density_success_series)
## We recommend that you use the dev version of ggplot2 with `ggplotly()`
## Install it with: `devtools::install_github('hadley/ggplot2')`

Quais séries se mantiveram bem avaliadas em todas as temporadas?

Consideraremos novamente as séries com avaliação acima de 8.9 como bem sucedidas.

badly_rated_series = series_by_season %>% 
  group_by(series_name) %>% 
  filter(mean_user_rating <= 8.9)

well_rated_series = series_by_season %>% 
  filter(!(series_name %in% badly_rated_series$series_name))

Até agora, as únicas séries que conseguiram se manter bem avaliadas em todas as temporadas, foram Super Girl, The Originals, Daredevil, Person of Interest e Outlander.

plot_well_rated_series = well_rated_series %>% 
  plot_ly(x = ~season,
          y = ~mean_user_rating,
          color = ~series_name,
          type = "scatter",
          mode = "lines") %>% 
  add_markers(x = ~season,
            y = ~mean_user_rating,
            color = ~series_name) %>% 
  layout(title = "Series Bem Avaliadas em Todas as Temporadas",
         xaxis = list(title = "Temporada"),
         yaxis = list(title = "Nota IMDB"))

plot_well_rated_series

Quais séries se mantiveram mal avaliadas em todas as suas temporadas?

Consideraremos uma série mal avaliada aquelas que possuem nota abaixo de 7.

ok_series = series_by_season %>% 
  filter(mean_user_rating > 7)

badly_rated_series_all_seasons = series_by_season %>% 
  filter(!(series_name %in% ok_series$series_name))

Usando esses parêmtros de nota, podemos dizer que são produzidas mais séries de má qualidade que séries de boa qualidade. Nota-se também que a maioria das séries que na primeira temporada obtiveram nota menor que 7, não continuaram.

plot_bad_series = badly_rated_series_all_seasons %>%
  plot_ly(x = ~season,
          y = ~mean_user_rating,
          color = ~series_name,
          type = "scatter",
          mode = "lines") %>%
  add_markers(x = ~season,
            y = ~mean_user_rating,
            color = ~series_name) %>%
  layout(showlegend = FALSE,
         title = "Séries que Tiveram Todas as Temporadas Mal Avaliadas",
         xaxis = list(title = "Temporada"),
         yaxis = list(title = "Nota IMDB"))

plot_bad_series

Agora, sabemos que a quantidade de temporadas de uma série não influencia sua nota IMDB, apenas 5 séries tiveram todas as suas temporadas muito bem avaliadas e existem mais séries mal avaliadas que muito bem avaliadas, o que não é estranho.